#ajuste fino

Optimización estable de políticas con convexidad de logits

Descubre cómo la convexidad de logits estabiliza la optimización de políticas en RL, superando la inestabilidad del PPO. Resultados probados en múltiples benchmarks.

2026-06-02 · 2 min

SpeedAug: Aceleración de Políticas con Tempo y RL

SpeedAug acelera políticas robóticas con RL: aumenta 1.8x el rendimiento en solo 16 minutos de interacción sin comprometer la tasa de éxito.

2026-06-02 · 2 min

Ajuste fino colaborativo y eficiente: aprovechando la similitud de tareas

Descubre CoLoRA, un método que aprovecha la similitud entre tareas para mejorar el ajuste fino de modelos fundacionales con pocos datos.

2026-06-02 · 2 min

Nuevo método conecta representaciones sin recompensa con preferencias en RL offline

Nuevo marco de aprendizaje por refuerzo offline que aprende representaciones sin recompensa y las afina con preferencias humanas, superando a métodos tradicionales en eficiencia.

2026-06-02 · 2 min

Error por grupo, no MSE total: ajuste fino VLA para manipulación móvil

Descubre por qué el error por grupo predice mejor el rendimiento real que el MSE total en el ajuste fino de modelos VLA para robots manipuladores móviles de 11 GDL.

2026-06-02 · 2 min

Mejora coherente de modelos grandes con recompensas aprendidas

Descubre cómo el aprendizaje por refuerzo inverso mejora la eficiencia de modelos de comportamiento robótico, logrando tasas de éxito superiores al 90% en tareas complejas de manipulación.

2026-06-02 · 3 min

Cuidado con el tamaño de lote: sesgo de hiperparámetro al evaluar LoRA

Descubre cómo el tamaño de lote es el factor oculto que sesga la evaluación de LoRA. Optimízalo para mejores resultados.

2026-06-02 · 2 min

Optimización de Preferencia Desviada para Generación en Un Paso

Descubre cómo DrPO optimiza modelos generativos de un paso sin necesidad de gradientes de recompensa, mejorando la alineación y reduciendo el costo computacional.

2026-06-02 · 2 min

CRMA: Backbone con límite espectral para ajuste fino continuo de LLMs

Descubre CRMA: ajuste fino secuencial de LLMs sin olvido catastrófico, mejorando rendimiento en tareas previas. Sin buffers, sin destilación.

2026-06-02 · 2 min

Espejismo de seguridad: Correlaciones espurias y desaprendizaje en VLM

Aprende cómo las correlaciones espurias en VLM crean un espejismo de seguridad y cómo el desaprendizaje reduce ataques y rechazos innecesarios.

2026-06-02 · 2 min

DataShield: Filtrado de datos que degradan seguridad en ajuste benigno de LLM

DataShield identifica eficientemente muestras que degradan seguridad en el ajuste benigno de LLMs. Protege tus modelos con esta innovadora solución.

2026-06-02 · 2 min

Ajuste fino justo mitiga ataques de inferencia de distribución

Ajuste fino justo reduce ataques de inferencia de distribución. Conoce el vínculo entre equidad y privacidad en modelos de IA.

2026-06-02 · 4 min

Ajuste fino eficiente de modelos preentrenados para segmentación de instancias

Descubre cómo el ajuste fino eficiente con adaptadores y LoRA logra segmentar instancias con solo 1-6% de parámetros, manteniendo rendimiento. ¡Optimiza!

2026-06-02 · 3 min

Adaptadores CP: pasos de parámetros más finos en PEFT

Los adaptadores CP ofrecen pasos de parámetros 21 veces más finos que LoRA. ¿Mejoran la precisión? Estudio controlado en OPT-1.3B revela resultados según la tarea.

2026-06-02 · 3 min

Ajuste fino consciente del desbalance en Qwen3-8B para defensa psicológica

Descubre cómo logramos el 4° puesto en PsyDefDetect 2026 usando Qwen3-8B con ajuste fino consciente del desbalance, aumentando el F1 macro un 24.4% sobre la línea base.

2026-06-02 · 2 min

GuidaPA: Chatbot con privacidad para administración pública mediante aprendizaje federado

GuidaPA: chatbot privado para administración pública con aprendizaje federado. Obtén alta calidad sin centralizar datos. ¡Descubre cómo!

2026-06-02 · 2 min

RoleCDE: Evaluación y mitigación de conflictos rol-alineación

RoleCDE es el primer benchmark que mide cómo los agentes de rol resuelven dilemas entre valores específicos y alineación. ¡Aprende a mitigar el desacople de roles!

2026-06-02 · 2 min

Aprendizaje de un optimizador de orden cero para LLMs

Descubre cómo ZO-Finetuner optimiza el ajuste de LLMs sin retropropagación, reduciendo el uso de memoria y mejorando el rendimiento en múltiples tareas.

2026-06-01 · 2 min

Reexaminando la adaptación de bajo rango para ajuste fino privado de LLMs

Descubre cómo restaurar el rápido decaimiento de valores singulares mejora la eficiencia del ajuste fino privado de LLMs con DP-SGD, sin comprometer privacidad.

2026-06-01 · 2 min

Go-UT-Bench: Dataset de ajuste fino para tests unitarios en Go

Descubre Go-UT-Bench, dataset para ajustar LLMs que mejora tests unitarios en Go. Modelos ajustados superan en más del 75% a los base. ¡Optimiza!

2026-06-01 · 2 min